확률 분포, 확률 변수, 확률 모형의 의미

  • 분포
  • 확률 분포
  • 확률 변수
  • 확률 모형
  • 샘플링
  • 모집단

확률 분포

자료의 분포(distribution)란 자료가 어떤 수치적인 값을 가지는지를 그 전반적인 특징을 서술한 것을 말한다.

어떤 경우에 자료의 분포가 필요할까? 다음의 세 가지 경우를 생각해보자.

우선 복수의 자료 즉, 자료의 집합이 존재하고 이 집합의 특성을 서술해야 하는 경우이다. 이는 자료의 모습을 기술(describe)하기 위한 것이라고 해서 기술 통계(descriptive statistics)라고 한다. 보통 자료의 평균, 최대값, 최소값, 분산 등의 계산 값을 사용하거나 히스토그램(histogram)이나 커널 밀도(kernel density)를 사용하기도 한다.

다음으로 아직 자료가 실제로 생성(realization)되지는 않았지만 미래에 생성될 자료 집합의 특성을 미리 서술하기 위한 것이다. 만약 자료가 실험(experiment)이나 조사(survey)등을 통해 생성된다고 하면 아직 실험이나 조사를 하기 미리 특성을 알아보기 위한 경우도 있을 수 있다.

이 때의 분포를 확률 분포(probability distribution)이라고 한다. 이 때의 확률의 의미는 앞으로 생성될 자료의 값이 확률 분포에서 지정한 빈도에 따라 생성될 것이라는 의미이므로 빈도주의 확률론(frequentist probability)이라는 용어를 사용한다

마지막으로 생각할 수 있는 경우는 실제로 하나의 자료가 생성이 되었지만 그 값을 알지 못하는 미지(unknown)의 자료 값을 고려하는 경우이다. 이 때의 확률은 아직 알지 못하는 자료의 값이 특정한 값이 되리라는 믿음(belief) 또는 가능성에 대한 상대적 척도이다. 이러한 확률을 베이지안 확률론(Bayesian probability)이라고 한다.

우리가 어떤 문제를 푸는 경우, 보통은 몇가지 후보(candidate) 값을 놓고 각각의 후보가 정답이 될 가능성을 수치로 비교할 수 있다. 베이지안 확률론의 이러한 상황에서 정답에 대한 증거 혹은 힌트가 추가될 때 마다 이 가능성들을 어떻게 바꾸어야 하는지를 나타내는 방법론이다.

  • 현존하는 복수의 자료의 기술

    • 복수의 자료가 이미 존재하는 경우, 자료 값들의 특성을 살펴보기 위해
    • 기술 통계(descriptive statistics)
  • 미래에 만들어질 자료의 예측

    • 자료가 아직 존재하지는 않지만 미래에 복수의 자료가 만들어질 수 있는 경우, 어떤 자료 값들이 만들어질지 예측하기 위해
    • 확률 분포 (probability distribution)
    • 빈도주의 확률론 (frequentist probability)
  • 미지의 자료 값에 대한 추정

    • 하나의 자료가 이미 존재하지만 그 값을 아직 알지 못하는 경우, 그 자료의 값을 추정하기 위해
    • 베이지안 확률론 (Bayesian probability

확률 분포를 정의하는 방법

자료의 분포를 기술하는 방법은 앞서 말한 기술 통계가 가장 간단한 방법이지만 기술통계는 언제까지나 대략적인 모습만을 그릴 뿐이고 자료 전체의 완벽한 모습을 그리기 힘들다.

히스토그램을 예로 들어 보자. 1,000개의 자료가 존재한다고 가정하고 이를 히스토그램으로 그려보자.


In [1]:
sp.random.seed(0)
x = sp.random.normal(size=1000)
x


Out[1]:
array([  1.76405235e+00,   4.00157208e-01,   9.78737984e-01,
         2.24089320e+00,   1.86755799e+00,  -9.77277880e-01,
         9.50088418e-01,  -1.51357208e-01,  -1.03218852e-01,
         4.10598502e-01,   1.44043571e-01,   1.45427351e+00,
         7.61037725e-01,   1.21675016e-01,   4.43863233e-01,
         3.33674327e-01,   1.49407907e+00,  -2.05158264e-01,
         3.13067702e-01,  -8.54095739e-01,  -2.55298982e+00,
         6.53618595e-01,   8.64436199e-01,  -7.42165020e-01,
         2.26975462e+00,  -1.45436567e+00,   4.57585173e-02,
        -1.87183850e-01,   1.53277921e+00,   1.46935877e+00,
         1.54947426e-01,   3.78162520e-01,  -8.87785748e-01,
        -1.98079647e+00,  -3.47912149e-01,   1.56348969e-01,
         1.23029068e+00,   1.20237985e+00,  -3.87326817e-01,
        -3.02302751e-01,  -1.04855297e+00,  -1.42001794e+00,
        -1.70627019e+00,   1.95077540e+00,  -5.09652182e-01,
        -4.38074302e-01,  -1.25279536e+00,   7.77490356e-01,
        -1.61389785e+00,  -2.12740280e-01,  -8.95466561e-01,
         3.86902498e-01,  -5.10805138e-01,  -1.18063218e+00,
        -2.81822283e-02,   4.28331871e-01,   6.65172224e-02,
         3.02471898e-01,  -6.34322094e-01,  -3.62741166e-01,
        -6.72460448e-01,  -3.59553162e-01,  -8.13146282e-01,
        -1.72628260e+00,   1.77426142e-01,  -4.01780936e-01,
        -1.63019835e+00,   4.62782256e-01,  -9.07298364e-01,
         5.19453958e-02,   7.29090562e-01,   1.28982911e-01,
         1.13940068e+00,  -1.23482582e+00,   4.02341641e-01,
        -6.84810091e-01,  -8.70797149e-01,  -5.78849665e-01,
        -3.11552532e-01,   5.61653422e-02,  -1.16514984e+00,
         9.00826487e-01,   4.65662440e-01,  -1.53624369e+00,
         1.48825219e+00,   1.89588918e+00,   1.17877957e+00,
        -1.79924836e-01,  -1.07075262e+00,   1.05445173e+00,
        -4.03176947e-01,   1.22244507e+00,   2.08274978e-01,
         9.76639036e-01,   3.56366397e-01,   7.06573168e-01,
         1.05000207e-02,   1.78587049e+00,   1.26912093e-01,
         4.01989363e-01,   1.88315070e+00,  -1.34775906e+00,
        -1.27048500e+00,   9.69396708e-01,  -1.17312341e+00,
         1.94362119e+00,  -4.13618981e-01,  -7.47454811e-01,
         1.92294203e+00,   1.48051479e+00,   1.86755896e+00,
         9.06044658e-01,  -8.61225685e-01,   1.91006495e+00,
        -2.68003371e-01,   8.02456396e-01,   9.47251968e-01,
        -1.55010093e-01,   6.14079370e-01,   9.22206672e-01,
         3.76425531e-01,  -1.09940079e+00,   2.98238174e-01,
         1.32638590e+00,  -6.94567860e-01,  -1.49634540e-01,
        -4.35153552e-01,   1.84926373e+00,   6.72294757e-01,
         4.07461836e-01,  -7.69916074e-01,   5.39249191e-01,
        -6.74332661e-01,   3.18305583e-02,  -6.35846078e-01,
         6.76433295e-01,   5.76590817e-01,  -2.08298756e-01,
         3.96006713e-01,  -1.09306151e+00,  -1.49125759e+00,
         4.39391701e-01,   1.66673495e-01,   6.35031437e-01,
         2.38314477e+00,   9.44479487e-01,  -9.12822225e-01,
         1.11701629e+00,  -1.31590741e+00,  -4.61584605e-01,
        -6.82416053e-02,   1.71334272e+00,  -7.44754822e-01,
        -8.26438539e-01,  -9.84525244e-02,  -6.63478286e-01,
         1.12663592e+00,  -1.07993151e+00,  -1.14746865e+00,
        -4.37820045e-01,  -4.98032451e-01,   1.92953205e+00,
         9.49420807e-01,   8.75512414e-02,  -1.22543552e+00,
         8.44362976e-01,  -1.00021535e+00,  -1.54477110e+00,
         1.18802979e+00,   3.16942612e-01,   9.20858824e-01,
         3.18727653e-01,   8.56830612e-01,  -6.51025593e-01,
        -1.03424284e+00,   6.81594518e-01,  -8.03409664e-01,
        -6.89549778e-01,  -4.55532504e-01,   1.74791590e-02,
        -3.53993911e-01,  -1.37495129e+00,  -6.43618403e-01,
        -2.22340315e+00,   6.25231451e-01,  -1.60205766e+00,
        -1.10438334e+00,   5.21650793e-02,  -7.39562996e-01,
         1.54301460e+00,  -1.29285691e+00,   2.67050869e-01,
        -3.92828182e-02,  -1.16809350e+00,   5.23276661e-01,
        -1.71546331e-01,   7.71790551e-01,   8.23504154e-01,
         2.16323595e+00,   1.33652795e+00,  -3.69181838e-01,
        -2.39379178e-01,   1.09965960e+00,   6.55263731e-01,
         6.40131526e-01,  -1.61695604e+00,  -2.43261244e-02,
        -7.38030909e-01,   2.79924599e-01,  -9.81503896e-02,
         9.10178908e-01,   3.17218215e-01,   7.86327962e-01,
        -4.66419097e-01,  -9.44446256e-01,  -4.10049693e-01,
        -1.70204139e-02,   3.79151736e-01,   2.25930895e+00,
        -4.22571517e-02,  -9.55945000e-01,  -3.45981776e-01,
        -4.63595975e-01,   4.81481474e-01,  -1.54079701e+00,
         6.32619942e-02,   1.56506538e-01,   2.32181036e-01,
        -5.97316069e-01,  -2.37921730e-01,  -1.42406091e+00,
        -4.93319883e-01,  -5.42861476e-01,   4.16050046e-01,
        -1.15618243e+00,   7.81198102e-01,   1.49448454e+00,
        -2.06998503e+00,   4.26258731e-01,   6.76908035e-01,
        -6.37437026e-01,  -3.97271814e-01,  -1.32880578e-01,
        -2.97790879e-01,  -3.09012969e-01,  -1.67600381e+00,
         1.15233156e+00,   1.07961859e+00,  -8.13364259e-01,
        -1.46642433e+00,   5.21064876e-01,  -5.75787970e-01,
         1.41953163e-01,  -3.19328417e-01,   6.91538751e-01,
         6.94749144e-01,  -7.25597378e-01,  -1.38336396e+00,
        -1.58293840e+00,   6.10379379e-01,  -1.18885926e+00,
        -5.06816354e-01,  -5.96314038e-01,  -5.25672963e-02,
        -1.93627981e+00,   1.88778597e-01,   5.23891024e-01,
         8.84220870e-02,  -3.10886172e-01,   9.74001663e-02,
         3.99046346e-01,  -2.77259276e+00,   1.95591231e+00,
         3.90093323e-01,  -6.52408582e-01,  -3.90953375e-01,
         4.93741777e-01,  -1.16103939e-01,  -2.03068447e+00,
         2.06449286e+00,  -1.10540657e-01,   1.02017271e+00,
        -6.92049848e-01,   1.53637705e+00,   2.86343689e-01,
         6.08843834e-01,  -1.04525337e+00,   1.21114529e+00,
         6.89818165e-01,   1.30184623e+00,  -6.28087560e-01,
        -4.81027118e-01,   2.30391670e+00,  -1.06001582e+00,
        -1.35949701e-01,   1.13689136e+00,   9.77249677e-02,
         5.82953680e-01,  -3.99449029e-01,   3.70055888e-01,
        -1.30652685e+00,   1.65813068e+00,  -1.18164045e-01,
        -6.80178204e-01,   6.66383082e-01,  -4.60719787e-01,
        -1.33425847e+00,  -1.34671751e+00,   6.93773153e-01,
        -1.59573438e-01,  -1.33701560e-01,   1.07774381e+00,
        -1.12682581e+00,  -7.30677753e-01,  -3.84879809e-01,
         9.43515893e-02,  -4.21714513e-02,  -2.86887192e-01,
        -6.16264021e-02,  -1.07305276e-01,  -7.19604389e-01,
        -8.12992989e-01,   2.74516358e-01,  -8.90915083e-01,
        -1.15735526e+00,  -3.12292251e-01,  -1.57667016e-01,
         2.25672350e+00,  -7.04700276e-01,   9.43260725e-01,
         7.47188334e-01,  -1.18894496e+00,   7.73252977e-01,
        -1.18388064e+00,  -2.65917224e+00,   6.06319524e-01,
        -1.75589058e+00,   4.50934462e-01,  -6.84010898e-01,
         1.65955080e+00,   1.06850940e+00,  -4.53385804e-01,
        -6.87837611e-01,  -1.21407740e+00,  -4.40922632e-01,
        -2.80355495e-01,  -3.64693544e-01,   1.56703855e-01,
         5.78521498e-01,   3.49654457e-01,  -7.64143924e-01,
        -1.43779147e+00,   1.36453185e+00,  -6.89449185e-01,
        -6.52293600e-01,  -5.21189312e-01,  -1.84306955e+00,
        -4.77974004e-01,  -4.79655814e-01,   6.20358298e-01,
         6.98457149e-01,   3.77088909e-03,   9.31848374e-01,
         3.39964984e-01,  -1.56821116e-02,   1.60928168e-01,
        -1.90653494e-01,  -3.94849514e-01,  -2.67733537e-01,
        -1.12801133e+00,   2.80441705e-01,  -9.93123611e-01,
         8.41631264e-01,  -2.49458580e-01,   4.94949817e-02,
         4.93836776e-01,   6.43314465e-01,  -1.57062341e+00,
        -2.06903676e-01,   8.80178912e-01,  -1.69810582e+00,
         3.87280475e-01,  -2.25556423e+00,  -1.02250684e+00,
         3.86305518e-02,  -1.65671510e+00,  -9.85510738e-01,
        -1.47183501e+00,   1.64813493e+00,   1.64227755e-01,
         5.67290278e-01,  -2.22675101e-01,  -3.53431749e-01,
        -1.61647419e+00,  -2.91837363e-01,  -7.61492212e-01,
         8.57923924e-01,   1.14110187e+00,   1.46657872e+00,
         8.52551939e-01,  -5.98653937e-01,  -1.11589699e+00,
         7.66663182e-01,   3.56292817e-01,  -1.76853845e+00,
         3.55481793e-01,   8.14519822e-01,   5.89255892e-02,
        -1.85053671e-01,  -8.07648488e-01,  -1.44653470e+00,
         8.00297949e-01,  -3.09114445e-01,  -2.33466662e-01,
         1.73272119e+00,   6.84501107e-01,   3.70825001e-01,
         1.42061805e-01,   1.51999486e+00,   1.71958931e+00,
         9.29505111e-01,   5.82224591e-01,  -2.09460307e+00,
         1.23721914e-01,  -1.30106954e-01,   9.39532294e-02,
         9.43046087e-01,  -2.73967717e+00,  -5.69312053e-01,
         2.69904355e-01,  -4.66845546e-01,  -1.41690611e+00,
         8.68963487e-01,   2.76871906e-01,  -9.71104570e-01,
         3.14817205e-01,   8.21585712e-01,   5.29264630e-03,
         8.00564803e-01,   7.82601752e-02,  -3.95228983e-01,
        -1.15942052e+00,  -8.59307670e-02,   1.94292938e-01,
         8.75832762e-01,  -1.15107468e-01,   4.57415606e-01,
        -9.64612014e-01,  -7.82629156e-01,  -1.10389299e-01,
        -1.05462846e+00,   8.20247837e-01,   4.63130329e-01,
         2.79095764e-01,   3.38904125e-01,   2.02104356e+00,
        -4.68864188e-01,  -2.20144129e+00,   1.99300197e-01,
        -5.06035410e-02,  -5.17519043e-01,  -9.78829859e-01,
        -4.39189522e-01,   1.81338429e-01,  -5.02816701e-01,
         2.41245368e+00,  -9.60504382e-01,  -7.93117363e-01,
        -2.28862004e+00,   2.51484415e-01,  -2.01640663e+00,
        -5.39454633e-01,  -2.75670535e-01,  -7.09727966e-01,
         1.73887268e+00,   9.94394391e-01,   1.31913688e+00,
        -8.82418819e-01,   1.12859406e+00,   4.96000946e-01,
         7.71405949e-01,   1.02943883e+00,  -9.08763246e-01,
        -4.24317621e-01,   8.62596011e-01,  -2.65561909e+00,
         1.51332808e+00,   5.53132064e-01,  -4.57039607e-02,
         2.20507656e-01,  -1.02993528e+00,  -3.49943365e-01,
         1.10028434e+00,   1.29802197e+00,   2.69622405e+00,
        -7.39246663e-02,  -6.58552967e-01,  -5.14233966e-01,
        -1.01804188e+00,  -7.78547559e-02,   3.82732430e-01,
        -3.42422805e-02,   1.09634685e+00,  -2.34215801e-01,
        -3.47450652e-01,  -5.81268477e-01,  -1.63263453e+00,
        -1.56776772e+00,  -1.17915793e+00,   1.30142807e+00,
         8.95260273e-01,   1.37496407e+00,  -1.33221165e+00,
        -1.96862469e+00,  -6.60056320e-01,   1.75818953e-01,
         4.98690275e-01,   1.04797216e+00,   2.84279671e-01,
         1.74266878e+00,  -2.22605681e-01,  -9.13079218e-01,
        -1.68121822e+00,  -8.88971358e-01,   2.42117961e-01,
        -8.88720257e-01,   9.36742464e-01,   1.41232771e+00,
        -2.36958691e+00,   8.64052300e-01,  -2.23960406e+00,
         4.01499055e-01,   1.22487056e+00,   6.48561063e-02,
        -1.27968917e+00,  -5.85431204e-01,  -2.61645446e-01,
        -1.82244784e-01,  -2.02896841e-01,  -1.09882779e-01,
         2.13480049e-01,  -1.20857365e+00,  -2.42019830e-01,
         1.51826117e+00,  -3.84645423e-01,  -4.43836093e-01,
         1.07819730e+00,  -2.55918467e+00,   1.18137860e+00,
        -6.31903758e-01,   1.63928572e-01,   9.63213559e-02,
         9.42468119e-01,  -2.67594746e-01,  -6.78025782e-01,
         1.29784579e+00,  -2.36417382e+00,   2.03341817e-02,
        -1.34792542e+00,  -7.61573388e-01,   2.01125668e+00,
        -4.45954265e-02,   1.95069697e-01,  -1.78156286e+00,
        -7.29044659e-01,   1.96557401e-01,   3.54757693e-01,
         6.16886554e-01,   8.62789892e-03,   5.27004208e-01,
         4.53781913e-01,  -1.82974041e+00,   3.70057219e-02,
         7.67902408e-01,   5.89879821e-01,  -3.63858810e-01,
        -8.05626508e-01,  -1.11831192e+00,  -1.31054012e-01,
         1.13307988e+00,  -1.95180410e+00,  -6.59891730e-01,
        -1.13980246e+00,   7.84957521e-01,  -5.54309627e-01,
        -4.70637658e-01,  -2.16949570e-01,   4.45393251e-01,
        -3.92388998e-01,  -3.04614305e+00,   5.43311891e-01,
         4.39042958e-01,  -2.19541028e-01,  -1.08403662e+00,
         3.51780111e-01,   3.79235534e-01,  -4.70032883e-01,
        -2.16731471e-01,  -9.30156503e-01,  -1.78589092e-01,
        -1.55042935e+00,   4.17318821e-01,  -9.44368491e-01,
         2.38103148e-01,  -1.40596292e+00,  -5.90057646e-01,
        -1.10489405e-01,  -1.66069981e+00,   1.15147873e-01,
        -3.79147563e-01,  -1.74235620e+00,  -1.30324275e+00,
         6.05120084e-01,   8.95555986e-01,  -1.31908640e-01,
         4.04761812e-01,   2.23843563e-01,   3.29622982e-01,
         1.28598401e+00,  -1.50699840e+00,   6.76460732e-01,
        -3.82008956e-01,  -2.24258934e-01,  -3.02249730e-01,
        -3.75147117e-01,  -1.22619619e+00,   1.83339199e-01,
         1.67094303e+00,  -5.61330204e-02,  -1.38504274e-03,
        -6.87299037e-01,  -1.17474546e-01,   4.66166426e-01,
        -3.70242441e-01,  -4.53804041e-01,   4.03264540e-01,
        -9.18004770e-01,   2.52496627e-01,   8.20321797e-01,
         1.35994854e+00,  -9.03820073e-02,   1.36759724e+00,
         1.03440989e+00,  -9.96212640e-01,  -1.21793851e+00,
        -3.04963638e-01,   1.02893549e+00,  -7.22870076e-02,
        -6.00657558e-01,   1.55224318e+00,   2.86904488e-01,
        -2.32059428e+00,   3.17160626e-01,   5.20040615e-01,
         2.25608654e-01,   4.49712100e-01,  -6.72756089e-02,
        -1.31839587e+00,  -3.70704003e-01,  -9.45615796e-01,
        -9.32740911e-01,  -1.26306835e+00,   4.52489093e-01,
         9.78961454e-02,  -4.48165363e-01,  -6.49337928e-01,
        -2.34231050e-02,   1.07919473e+00,  -2.00421572e+00,
         3.76876521e-01,  -5.45711974e-01,  -1.88458584e+00,
        -1.94570308e+00,  -9.12783494e-01,   2.19509556e-01,
         3.93062934e-01,  -9.38981573e-01,   1.01702099e+00,
         1.42298350e+00,   3.96086585e-01,  -5.91402668e-01,
         1.12441918e+00,   7.55395696e-01,   8.67407411e-01,
        -6.56463675e-01,  -2.83455451e+00,   2.11679102e+00,
        -1.61087840e+00,  -3.57680719e-02,   2.38074535e+00,
         3.30576756e-01,   9.49246474e-01,  -1.50239657e+00,
        -1.77766695e+00,  -5.32702792e-01,   1.09074973e+00,
        -3.46249448e-01,  -7.94636321e-01,   1.97967290e-01,
         1.08193522e+00,  -1.44494020e+00,  -1.21054299e+00,
        -7.88669255e-01,   1.09463837e+00,   2.34821526e-01,
         2.13215341e+00,   9.36445726e-01,  -3.50951769e-02,
         1.26507784e+00,   2.11497013e-01,  -7.04921353e-01,
         6.79974844e-01,  -6.96326654e-01,  -2.90397101e-01,
         1.32778270e+00,  -1.01281486e-01,  -8.03141387e-01,
        -4.64337691e-01,   1.02179059e+00,  -5.52540673e-01,
        -3.86870847e-01,  -5.10292740e-01,   1.83925494e-01,
        -3.85489760e-01,  -1.60183605e+00,  -8.87180942e-01,
        -9.32789042e-01,   1.24331938e+00,   8.12674042e-01,
         5.87259379e-01,  -5.05358317e-01,  -8.15791542e-01,
        -5.07517602e-01,  -1.05188010e+00,   2.49720039e+00,
        -2.24532165e+00,   5.64008535e-01,  -1.28455230e+00,
        -1.04343491e-01,  -9.88001942e-01,  -1.17762896e+00,
        -1.14019630e+00,   1.75498615e+00,  -1.32988422e-01,
        -7.65702194e-01,   5.55786964e-01,   1.03493146e-02,
         7.20033759e-01,  -1.82425666e+00,   3.03603904e-01,
         7.72694837e-01,  -1.66159829e+00,   4.48195284e-01,
         1.69618157e+00,  -1.48577034e-02,   8.21405937e-01,
         6.70570450e-01,  -7.07505698e-01,   3.97667346e-02,
        -1.56699471e+00,  -4.51303037e-01,   2.65687975e-01,
         7.23100494e-01,   2.46121252e-02,   7.19983730e-01,
        -1.10290621e+00,  -1.01697275e-01,   1.92793845e-02,
         1.84959125e+00,  -2.14166656e-01,  -4.99016638e-01,
         2.13512238e-02,  -9.19113445e-01,   1.92753849e-01,
        -3.65055217e-01,  -1.79132755e+00,  -5.85865511e-02,
        -3.17543094e-01,  -1.63242330e+00,  -6.71341546e-02,
         1.48935596e+00,   5.21303748e-01,   6.11927193e-01,
        -1.34149673e+00,   4.76898369e-01,   1.48449581e-01,
         5.29045238e-01,   4.22628622e-01,  -1.35978073e+00,
        -4.14008116e-02,  -7.57870860e-01,  -5.00840943e-02,
        -8.97400927e-01,   1.31247037e+00,  -8.58972388e-01,
        -8.98942156e-01,   7.45864065e-02,  -1.07709907e+00,
        -4.24663302e-01,  -8.29964598e-01,   1.41117206e+00,
         7.85803827e-01,  -5.74695185e-02,  -3.91217052e-01,
         9.40917615e-01,   4.05204080e-01,   4.98052405e-01,
        -2.61922373e-02,  -1.68823003e+00,  -1.12465983e-01,
        -5.32489919e-01,   6.45055273e-01,   1.01184243e+00,
        -6.57951045e-01,   4.68385234e-01,   1.73587900e+00,
        -6.67712721e-01,   1.68192174e+00,  -8.52585847e-01,
         2.29597556e-02,  -1.11456118e-02,   1.14988999e-02,
        -8.37678042e-01,  -5.91183104e-01,  -6.67720286e-01,
         3.26962595e-01,   3.30035115e-01,   2.22594433e+00,
         1.37098901e+00,  -5.09843242e-01,   3.24869616e-01,
         9.97117981e-01,   3.06018243e-02,  -6.96415784e-02,
         5.15749428e-02,   8.67276629e-01,  -8.48320523e-01,
        -3.25669469e-01,   4.70433145e-01,   3.11447072e-01,
         2.39582760e-01,  -3.69801166e-01,   9.72535789e-01,
         2.13386825e+00,   4.06415494e-01,  -1.93176702e-01,
         7.55740289e-01,  -5.39132637e-01,  -7.49690345e-01,
         3.28087476e-02,  -2.58279663e+00,  -1.15395036e+00,
        -3.47961856e-01,  -1.35338886e+00,  -1.03264310e+00,
        -4.36748337e-01,  -1.64296529e+00,  -4.06071796e-01,
        -5.35270165e-01,   2.54052084e-02,   1.15418403e+00,
         1.72504416e-01,   2.10620213e-02,   9.94544570e-02,
         2.27392775e-01,  -1.01673865e+00,  -1.14775325e-01,
         3.08751242e-01,  -1.37075998e+00,   8.65652923e-01,
         1.08137603e+00,  -6.31375988e-01,  -2.41337791e-01,
        -8.78190343e-01,   6.99380484e-01,  -1.06122229e+00,
        -2.22477010e-01,  -8.58919908e-01,   5.09542770e-02,
        -1.79422927e+00,   1.32646164e+00,  -9.64606424e-01,
         5.98946831e-02,  -2.12523045e-01,  -7.62114512e-01,
        -8.87780137e-01,   9.36398544e-01,  -5.25640593e-01,
         2.71170185e-01,  -8.01496885e-01,  -6.47181432e-01,
         4.72247150e-01,   9.30408496e-01,  -1.75316402e-01,
        -1.42191987e+00,   1.99795608e+00,  -8.56549308e-01,
        -1.54158740e+00,   2.59442459e+00,  -4.04032294e-01,
        -1.46173269e+00,  -6.83439767e-01,   3.67544896e-01,
         1.90311558e-01,  -8.51729197e-01,   1.82272360e+00,
        -5.21579678e-01,  -1.18468659e+00,   9.60693398e-01,
         1.32906285e+00,  -8.17493098e-01,  -1.40134729e+00,
         1.03043827e+00,  -2.04732361e+00,  -1.22662166e+00,
         9.67446150e-01,  -5.53525480e-02,  -2.63937349e-01,
         3.52816606e-01,  -1.52774424e-01,  -1.29868672e+00,
         1.27607535e+00,   1.32501405e+00,   2.05332564e-01,
         4.51340154e-02,   2.33962481e+00,  -2.76432845e-01,
        -2.59576982e-01,   3.64481249e-01,   1.47132196e+00,
         1.59277075e+00,  -2.58572632e-01,   3.08331246e-01,
        -1.37808347e+00,  -3.11976108e-01,  -8.40290395e-01,
        -1.00683175e+00,   1.68157672e+00,  -7.92286662e-01,
        -5.31605908e-01,   3.65848788e-01,   1.29782527e+00,
         4.81115126e-01,   2.75935511e+00,  -7.46679783e-02,
         2.58716440e-01,   2.75600674e-01,   1.43504939e+00,
         5.07238951e-01,  -1.16229700e-01,  -9.47488595e-01,
         2.44443456e-01,   1.40134483e+00,  -4.10381794e-01,
         5.28943618e-01,   2.46147789e-01,   8.63519658e-01,
        -8.04753741e-01,   2.34664703e+00,  -1.27916111e+00,
        -3.65551090e-01,   9.38092541e-01,   2.96733172e-01,
         8.29986159e-01,  -4.96102334e-01,  -7.48049827e-02,
         1.22319836e-02,   1.56925961e+00,   6.90429024e-01,
         7.96672108e-01,  -6.57926093e-01,   9.68882639e-01,
         2.25581664e-01,   1.38914532e+00,   2.01406015e+00,
        -3.06765776e-01,  -4.06303130e-01,  -8.64044991e-01,
        -1.43579512e-01,  -3.82025449e-01,   3.59504400e-01,
        -1.44566817e-01,  -3.61599281e-01,   1.06458514e+00,
        -9.37880231e-01,   4.33107953e-01,  -4.05941727e-01,
         7.24368505e-01,   1.38526155e+00,  -3.03098253e-01,
         4.41032907e-01,   1.78792866e-01,  -7.99422400e-01,
         2.40787510e-01,   2.89120505e-01,   4.12870820e-01,
        -1.98398897e-01,   9.41923003e-02,  -1.14761094e+00,
        -3.58114075e-01])

In [2]:
ns, bins, ps = plt.hist(x, bins=10)



In [3]:
ns


Out[3]:
array([   9.,   20.,   70.,  146.,  217.,  239.,  160.,   86.,   38.,   15.])

In [4]:
bins


Out[4]:
array([-3.04614305, -2.46559324, -1.88504342, -1.3044936 , -0.72394379,
       -0.14339397,  0.43715585,  1.01770566,  1.59825548,  2.1788053 ,
        2.75935511])

In [5]:
ps


Out[5]:
<a list of 10 Patch objects>

In [6]:
pd.DataFrame([bins, ns/1000])


Out[6]:
0 1 2 3 4 5 6 7 8 9 10
0 -3.046143 -2.465593 -1.885043 -1.304494 -0.723944 -0.143394 0.437156 1.017706 1.598255 2.178805 2.759355
1 0.009000 0.020000 0.070000 0.146000 0.217000 0.239000 0.160000 0.086000 0.038000 0.015000 NaN

이 히스토그램에서 -0.143394 부터 0.437156 사이의 값이 전체의 약 24%를 차지하고 있음을 알 수 있다. 그럼 만약 -0.01 부터 0.01 사이의 구간에 대한 정보를 얻고 싶다면? 더 세부적인 구간에 대해 정보를 구하고 싶다면 히스토그램의 구간을 더 작게 나누어야 한다.


In [7]:
ns, bins, ps = plt.hist(x, bins=100)



In [8]:
pd.DataFrame([bins, ns/1000])


Out[8]:
0 1 2 3 4 5 6 7 8 9 ... 91 92 93 94 95 96 97 98 99 100
0 -3.046143 -2.988088 -2.930033 -2.871978 -2.813923 -2.755868 -2.697813 -2.639758 -2.581703 -2.523648 ... 2.23686 2.294915 2.35297 2.411025 2.46908 2.527135 2.58519 2.643245 2.7013 2.759355
1 0.001000 0.000000 0.000000 0.001000 0.001000 0.001000 0.002000 0.001000 0.002000 0.000000 ... 0.00400 0.003000 0.00200 0.001000 0.00100 0.000000 0.00100 0.001000 0.0010 NaN

2 rows × 101 columns

정확한 묘사를 위해 구간의 수를 증가시키면 몇 가지 문제가 발생한다.

우선 구간의 간격이 작아지면서 하나의 구간에 있는 자료의 수가 점점 적어진다. 만약 구간 수가 무한대에 가깝다면 하나의 구간 폭은 0으로 수렴하고 해당 구간의 자료 수도 0으로 수렴할 것이다. 따라서 분포의 상대적인 모양을 살펴보기 힘들어진다. 이 문제는 누적 분포(cumulatice distribution)를 사용하면 해결할 수 있다.

두번째는 더 근본적인 문제로 서술을 위한 정보 자체가 증가하면서 정보의 단순화라는 원래의 목적을 상실한다는 점이다.

확률 모형

확률 분포를 보다 단순하게 묘사하기 위해 고안한 것이 확률 모형(probability model)이다.

확률 모형은 분포 함수(distribution function) 또는 밀도 함수(density function)라고 불리우는 미리 정해진 함수의 수식을 사용하여 분포의 모양을 정의(define)하는 방법이다. 이 때 분포의 모양을 결정하는 함수의 계수를 분포의 모수(parameter)라고 부른다.

예를 들어 가장 널리 쓰이는 정규 분포(Normal distribution)는 다음과 같은 수식으로 정의된다. 이 수식 자체의 이름은 $N$이고 함수의 독립 변수는 자료의 값을 의미하는 변수 $x$이다. 식에서 사용된 문자 $\mu$와 $\sigma$는 평균(mean)과 표준편차(standard deviation)이라는 이름의 모수이다.

$$ N(x; \mu, \sigma) = \frac{1}{\sigma\sqrt{2\pi}}\, e^{-\frac{(x - \mu)^2}{2 \sigma^2}} $$

다음 그림은 scipy를 사용하여 평균 0, 표준편차 1인 표준 정규 분포(standard normal distribution)의 모양을 그린것이다.


In [9]:
x = np.linspace(-3, 3, 100)
y = sp.stats.norm.pdf(x)
plt.plot(x, y)


Out[9]:
[<matplotlib.lines.Line2D at 0xae47e10>]

확률 변수

어떤 자료의 값이 분포가 특정한 확률 모형과 일치하는 경우 그 자료를 확률 변수(random variable)라고 하고 해당 확률 모형을 따른다고 말한다.

확률 변수는 보통 $X$, $Y$와 같이 알파벳 대문자로 표시하며 확률 변수 $X$가 정규 분포를 따른 경우 수학적으로 다음과 같이 표기한다.

$$ X \sim N(\mu, \sigma) $$

중요한 점은 확률 모형은 사람에 의해 정의된 분포일 뿐이라는 점이다. 어떤 자료의 확률 분포가 특정한 확률 모형을 따르리라는 것은 어디까지나 여러가지 편의를 위해 그렇게 가정(assumption)한 것인 뿐인 경우가 많다.

샘플링

그럼 어떤 확률 변수의 값이 특정한 확률 모형을 따른다고 가정한 상태에서 실험이나 조사에 의해 하나 혹은 복수의 실제 자료 값을 구했다고 하자. 이러한 과정을 샘플링(sampling)이라고 하고 구해진 자료값을 샘플(sample)이라고 한다. 통계학에서는 확률 변수가 따르는 확률 모형와 일치하는 특성을 가지는 가상의 무한개 샘플 집합을 모집합(population)이라고 하기도 한다.

자료 분석의 과정

우리가 풀게되는 대부분의 자료 분석 문제는 다음과 같은 과정을 거친다.

  • 자료를 확률 변수로 가정한다.
  • 확률 변수가 특정한 확률 모형을 따른다고 가정한다.
  • 샘플을 구한다.
  • 샘플에 대한 정보로부터 원래 확률 모형의 종류나 모수를 추정한다.
  • 구해진 확률 모형으로부터 다음에 생성될 샘플이나 샘플의 특성을 예측한다.

Q1) 확률 변수에 대한 설명 중에 어떠한 값이 확률 모형을 따르면 그 값이 확률 변수라고 하셨는데요. 그걸 어떻게 판단할 수 있나요?

A1) 확률 모형이라는 것은 현실 세계에 존재하는 것이 아니고 수식을 사용하여 현실 세계의 모습을 이상화(idealization)한 것입니다.

자료와 확률 모형의 관계는 현실세계의 원(예를 들면 컴파스로 그린 원)과 수학에서 정의하는 원(한 점으로 부터 일정한 거리만큼 떨어진 점의 집합)과의 관계와 비슷합니다. 우리는 컴파스로 (엄격하게 보면) 원의 정의를 따르지 않는 불완전한 원을 그려 놓고 "이게 (수학적인) 원이다"라고 가정한 후 문제를 풉니다. 자료와 확률 모형의 관계도 이와 유사하여 실제의 자료가 특정한 확률 모형을 따른다는 것은 사람이 그렇게 "가정"하는 것 뿐입니다.

다만 다음과 같은 여러가지 수치적 인 방법을 사용하여 실제의 자료와 확률 모형과의 유사도를 정량적으로 계산할 수는 있습니다.

  • 자료의 샘플 모멘트들과 확률 모형의 이론적 모멘트들과의 비교
  • kolmogorov-smirnov test 등의 분포 비교 검정

Q2) 요약: 자료 분석의 과정에서 "자료"와 "샘플"의 차이가 뭔지 좀 애매합니다. 그냥 추측하기론 자료는 단순히 풀 데이터고 샘플은 거기에서 추려낸 데이터인 것 같은데 샘플링을 할 때 그냥 랜덤하게 데이터를 추려내는건가요?

A2) "자료가 특정한 확률 모형을 따른다는 가정"을 하는 경우에 그 자료를 "해당 확률 분포의 샘플"이라고 부릅니다. 현실 자료가 "이상적인 확률 모형이 만들어 낼 수 있는 무한개의 자료 중 선택된 일부"라고 생각하는 것입니다.